#machine_learning #deep_learning #MIT #course

2.3 数据变换

数据的归一化方法：
- min-max归一化（原因：机器学习对数据较为敏感，如果数据之间相差很大可能会造成错误）
- z-score归一化（eg：回归任务的房价的输入特征）
- 分数降维
- 对数降维（eg:回归任务的房价预测值和真实值做log）
图片的归一化方法：
- 下采样：将图片从大分辨率下采样到小的分辨率（但是过度下采样会损失图片很多的细节）
- 图片存到不同文件系统，读取很慢；统一存到一个文件夹里，读取快
- image whitening
  - 使得输入较少冗余
  - 模型会收敛更快
视频的归一化方法：
- 电影平均视频2h，youtube平均时长11min
- 通常用十秒以内的段切片
- 将一段视频解码（通常用Gpu），采样一个系列的帧
文本的归一化方法：
- 词根化和语法化
- tokenization：一系列的tokens
  - 用word来切割
  - 用char来切割
  - 用子词来切割

References

2.3 数据变换【斯坦福21秋季：实用机器学习中文版】_哔哩哔哩_bilibili